کلاس کارشناسی ارشد پاکسازی داده ها در پایتون [ویدئو]

Data Cleansing Master Class in Python [Video]

نکته: آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره: آماده سازی داده ها ممکن است مهمترین بخش پروژه یادگیری ماشینی باشد. این زمان‌برترین بخش است، اگرچه کمترین موضوع مورد بحث است. آماده‌سازی داده، که گاهی به عنوان پیش‌پردازش داده‌ها نیز شناخته می‌شود، عمل تبدیل داده‌های خام به شکلی است که برای مدل‌سازی مناسب است. الگوریتم های یادگیری ماشین نیاز به شماره گذاری داده های ورودی دارند و اکثر پیاده سازی های الگوریتم این انتظار را حفظ می کنند. بنابراین، اگر داده‌های شما حاوی انواع داده‌ها و مقادیری هستند که اعداد نیستند، مانند برچسب‌ها، باید داده‌ها را به عدد تبدیل کنید. علاوه بر این، الگوریتم‌های یادگیری ماشینی خاص انتظاراتی در رابطه با انواع داده‌ها، مقیاس، توزیع احتمال و روابط بین متغیرهای ورودی دارند و ممکن است لازم باشد داده‌ها را برای برآورده کردن این انتظارات تغییر دهید. در این دوره آموزشی، روش‌های انباشت داده‌ها و تکنیک‌های پیشرفته پاک‌سازی داده‌ها، نحوه اعمال تکنیک‌های پاکسازی داده‌های واقعی در داده‌های خود، تکنیک‌های پیشرفته پاکسازی داده‌ها را خواهید آموخت. همچنین یاد بگیرید که چگونه داده ها را به گونه ای آماده کنید که از نشت داده ها و در نتیجه ارزیابی نادرست مدل جلوگیری شود. در پایان این دوره، شما پیش پردازش داده ها را انجام خواهید داد و به مهارت های پاکسازی داده ها مسلط خواهید شد. بسته کد کامل این دوره در https://github.com/PacktPublishing/Data-Cleansing-Master-Class-in-Python موجود است. داده ها را به گونه ای آماده کنید که از نشت داده ها جلوگیری شود. مشکلات مربوط به داده های آشفته را شناسایی و مدیریت کنید بدانید کدام روش انتخاب ویژگی را بر اساس انواع داده انتخاب کنید تبدیل توزیع احتمال متغیرهای ورودی متغیرهای ورودی نامربوط و زائد را شناسایی و حذف کنید متغیرهای پروژه را در فضایی با ابعاد پایین‌تر بسازید، اگر قصد دارید در دنیای واقعی یک مهندس یادگیری ماشین شوید، این دوره برای شما مناسب است. شما به یک پایه محکم در پایتون نیاز دارید و باید اصول یادگیری ماشین را بدانید. همچنین، شما باید با کتابخانه های یادگیری ماشینی تخصص داشته باشید. بیاموزید که چگونه از تکنیک‌های پاکسازی داده‌های واقعی در داده‌های خود استفاده کنید * تکنیک‌های پیشرفته پاکسازی داده‌ها را بیاموزید * یاد بگیرید چگونه داده‌ها را به گونه‌ای آماده کنید که از نشت داده‌ها و در نتیجه ارزیابی نادرست مدل جلوگیری شود.

سرفصل ها و درس ها

معرفی Introduction

  • معرفی دوره Course Introduction

  • ساختار دوره Course Structure

  • آیا این دوره برای شما مناسب است؟ Is this Course Right for You?

پایه ها Foundations

  • معرفی آماده سازی داده ها Introducing Data Preparation

  • فرآیند یادگیری ماشینی The Machine Learning Process

  • آماده سازی داده ها تعریف شده است Data Preparation Defined

  • انتخاب یک تکنیک آماده سازی داده ها Choosing a Data Preparation Technique

  • داده در یادگیری ماشین چیست؟ What is Data in Machine Learning?

  • داده های خام Raw Data

  • یادگیری ماشینی عمدتاً آماده سازی داده است Machine Learning is Mostly Data Preparation

  • وظایف معمول آماده سازی داده ها - پاکسازی داده ها Common Data Preparation Tasks - Data Cleansing

  • وظایف معمول آماده سازی داده - انتخاب ویژگی Common Data Preparation Tasks - Feature Selection

  • وظایف معمول آماده سازی داده ها - تبدیل داده ها Common Data Preparation Tasks - Data Transforms

  • وظایف مشترک آماده سازی داده ها - مهندسی ویژگی Common Data Preparation Tasks - Feature Engineering

  • وظایف معمول آماده سازی داده ها - کاهش ابعاد Common Data Preparation Tasks - Dimensionality Reduction

  • نشت داده ها Data Leakage

  • مشکل در آماده سازی ساده داده ها Problem with NaÏve Data Preparation

  • مطالعه موردی: نشت داده ها: آموزش/آزمون/رویکرد ساده لوح تقسیم شده Case Study: Data Leakage: Train / Test / Split NaÏve Approach

  • مطالعه موردی: نشت داده ها: آموزش/آزمون/روش صحیح تقسیم Case Study: Data Leakage: Train / Test / Split Correct Approach

  • مطالعه موردی: نشت داده: رویکرد ساده لوح K-Fold Case Study: Data Leakage: K-Fold NaÏve Approach

  • مطالعه موردی: نشت داده: رویکرد صحیح K-Fold Case Study: Data Leakage: K-Fold Correct Approach

پاک کردن داده Data Cleansing

  • بررسی اجمالی پاکسازی داده ها Data Cleansing Overview

  • ستون هایی را که دارای یک مقدار واحد هستند شناسایی کنید Identify Columns That Contain a Single Value

  • ستون هایی با مقادیر کم را شناسایی کنید Identify Columns with Few Values

  • حذف ستون های با واریانس کم Remove Columns with Low Variance

  • ردیف هایی که حاوی داده های تکراری هستند را شناسایی و حذف کنید Identify and Remove Rows That Contain Duplicate Data

  • تعریف نقاط پرت Defining Outliers

  • حذف نقاط پرت - رویکرد انحراف استاندارد Remove Outliers - The Standard Deviation Approach

  • حذف Outliers - رویکرد IQR Remove Outliers - The IQR Approach

  • تشخیص خودکار نقاط بیرونی Automatic Outlier Detection

  • علامت گذاری مقادیر گمشده Mark Missing Values

  • ردیف هایی با مقادیر از دست رفته را حذف کنید Remove Rows with Missing Values

  • محاسبه آماری Statistical Imputation

  • محاسبه مقدار میانگین Mean Value Imputation

  • Imputer ساده با ارزیابی مدل Simple Imputer with Model Evaluation

  • مقایسه راهبردهای مختلف انتساب آماری Compare Different Statistical Imputation Strategies

  • K-نزدیک‌ترین همسایه‌ها K-Nearest Neighbors Imputation

  • KNNI کامپیوتر و ارزیابی مدل KNNImputer and Model Evaluation

  • Iterative Imputation Iterative Imputation

  • IterativeImputer و مدل ارزیابی IterativeImputer and Model Evaluation

  • IterativeImputer و Different Imputation Order IterativeImputer and Different Imputation Order

انتخاب ویژگی Feature Selection

  • معرفی انتخاب ویژگی Feature Selection Introduction

  • انتخاب ویژگی تعریف شده است Feature Selection Defined

  • آمار برای انتخاب ویژگی Statistics for Feature Selection

  • بارگیری یک مجموعه داده طبقه بندی شده Loading a Categorical Dataset

  • مجموعه داده را برای مدلسازی رمزگذاری کنید Encode the Dataset for Modelling

  • Chi-Squared Chi-Squared

  • اطلاعات متقابل Mutual Information

  • مدل سازی با ویژگی های دسته بندی انتخاب شده Modeling with Selected Categorical Features

  • انتخاب ویژگی با ANOVA در ورودی عددی Feature Selection with ANOVA on Numerical Input

  • انتخاب ویژگی با اطلاعات متقابل Feature Selection with Mutual Information

  • مدل سازی با ویژگی های عددی منتخب Modeling with Selected Numerical Features

  • تنظیم تعدادی از ویژگی های انتخاب شده Tuning a Number of Selected Features

  • ویژگی ها را برای خروجی عددی انتخاب کنید Select Features for Numerical Output

  • همبستگی خطی با آمار همبستگی Linear Correlation with Correlation Statistics

  • همبستگی خطی با اطلاعات متقابل Linear Correlation with Mutual Information

  • خط مبنا و مدل با استفاده از همبستگی ساخته شده است Baseline and Model Built Using Correlation

  • مدل ساخته شده با استفاده از ویژگی های اطلاعات متقابل Model Built Using Mutual Information Features

  • تنظیم تعداد ویژگی های انتخاب شده Tuning Number of Selected Features

  • حذف ویژگی بازگشتی Recursive Feature Elimination

  • RFE برای طبقه بندی RFE for Classification

  • RFE برای رگرسیون RFE for Regression

  • فراپارامترهای RFE RFE Hyperparameters

  • رتبه بندی ویژگی برای RFE Feature Ranking for RFE

  • امتیازات اهمیت ویژگی تعریف شده است Feature Importance Scores Defined

  • امتیازات اهمیت ویژگی: رگرسیون خطی Feature Importance Scores: Linear Regression

  • امتیازات اهمیت ویژگی: رگرسیون لجستیک و سبد خرید Feature Importance Scores: Logistic Regression and CART

  • امتیازات اهمیت ویژگی: جنگل های تصادفی Feature Importance Scores: Random Forests

  • اهمیت ویژگی جایگشت Permutation Feature Importance

  • انتخاب ویژگی با اهمیت Feature Selection with Importance

تبدیل داده ها Data Transforms

  • مقیاس داده های عددی Scale Numerical Data

  • مجموعه داده های دیابت برای مقیاس بندی Diabetes Dataset for Scaling

  • تبدیل MinMaxScaler MinMaxScaler Transform

  • Transform StandardScaler StandardScaler Transform

  • داده های مقیاس بندی قوی Robust Scaling Data

  • مقیاس کننده قوی برای مجموعه داده اعمال شده است Robust Scaler Applied to Dataset

  • محدوده مقیاس کننده قوی را کاوش کنید Explore Robust Scaler Range

  • متغیرهای اسمی و ترتیبی Nominal and Ordinal Variables

  • رمزگذاری ترتیبی Ordinal Encoding

  • رمزگذاری یک داغ تعریف شده است One-Hot Encoding Defined

  • رمزگذاری یک داغ One-Hot Encoding

  • رمزگذاری متغیر ساختگی Dummy Variable Encoding

  • تبدیل رمزگذار ترتیبی در مجموعه داده سرطان پستان Ordinal Encoder Transform on Breast Cancer Dataset

  • توزیع ها را بیشتر به صورت گوسی انجام دهید Make Distributions More Gaussian

  • تبدیل نیرو در مجموعه داده های ساختگی Power Transform on Contrived Dataset

  • تبدیل نیرو در مجموعه داده سونار Power Transform on Sonar Dataset

  • Box-Cox در مجموعه داده سونار Box-Cox on Sonar Dataset

  • یئو جانسون در مجموعه داده سونار Yeo-Johnson on Sonar Dataset

  • ویژگی های چند جمله ای Polynomial Features

  • اثر درجات چند جمله ای Effect of Polynomial Degrees

تحولات پیشرفته Advanced Transforms

  • تبدیل انواع داده های مختلف Transforming Different Data Types

  • ترانسفورماتور ستونی The ColumnTransformer

  • ColumnTransformer در مجموعه داده Abalone The ColumnTransformer on Abalone Dataset

  • متغیر هدف را به صورت دستی تبدیل کنید Manually Transform Target Variable

  • تبدیل خودکار متغیر هدف Automatically Transform Target Variable

  • چالش آماده سازی داده های جدید برای یک مدل Challenge of Preparing New Data for a Model

  • Save Model and Data Scaler Save Model and Data Scaler

  • بارگیری و اعمال مقیاس های ذخیره شده Load and Apply Saved Scalers

کاهش ابعاد Dimensionality Reduction

  • نفرین ابعاد Curse of Dimensionality

  • تکنیک هایی برای کاهش ابعاد Techniques for Dimensionality Reduction

  • تحلیل تشخیصی خطی Linear Discriminant Analysis

  • تجزیه و تحلیل تفکیک خطی نشان داده شده است Linear Discriminant Analysis Demonstrated

  • تجزیه و تحلیل مؤلفه های اصلی Principal Component Analysis

نمایش نظرات

کلاس کارشناسی ارشد پاکسازی داده ها در پایتون [ویدئو]
جزییات دوره
3 h 33 m
103
Packtpub Packtpub
(آخرین آپدیت)
از 5
ندارد
دارد
دارد
Mike West
جهت دریافت آخرین اخبار و آپدیت ها در کانال تلگرام عضو شوید.

Google Chrome Browser

Internet Download Manager

Pot Player

Winrar

Mike West Mike West

سازنده LogikBot